Qualidade de Vinhos Tintos por Nailson dos Santos

Seção de Gráficos Univariados

Inicialmente serão plotados os gráficos das variáveis do dataset para que possam ser avaliados.

Avaliando os gráficos gerados pode-se perceber que as variáveis density e pH têm distribuição normal.

Em contrapartida, fixed.acidity, volatile.acidity, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide e sulphates têm cauda longa.

Para uma melhor análise dos itens que não estão apresentando uma variação normal, será aplicada uma transformação logarítmica para verificar se são casos de variação log-normal.

Aplicando a transformação logarítmica, observamos que residual.sugar, chlorides e sulphates estão com distribuição log-normal, apesar de serem long tail.

As outras variáveis apresentam uma distribuição próximas da log-normal.

Variável dependente

A variável quality será utilizada como variável dependente. O estudo será feito a partir de outras variáveis que serão analisadas com relação à quality.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000

Criando uma classificação baseada na qualidade dos vinhos

Dado que a variável quality apresenta apenas números inteiros, ou seja, não teremos vinhos classificados com qualidade 6.8, por exemplo, serão criadas categorias de classificação de vinhos.

Os vinhos estão classificados em uma escala de 0 a 10, sendo 0 a pior classificação de qualidade e 10 a melhor.

No dataset estudado, a maioria dos vinhos estão classificados com qualidade 5 e 6. A pior qualidade observada foi 3 e a melhor foi 8.

Desse modo, os vinhos serão categorizados em:

  1. ruim -> vinhos com notas de 0 a 4
  2. bom -> vinhos com notas de 5 a 7
  3. excelente -> vinhos com notas de 8 a 10

No gráfico Categorias temos a distribuição dos vinhos distribuídos nas categorias, ruim, bom e excelente.

No gráfico Categorias e qualidade temos a mesma representação do gráfico anterior, mas com a exibição também das quantidades que aparecem em cada uma das categorias.

Variáveis independentes

A seguir, as variáveis independentes serão analisadas com relação à variável dependente quality.

Acidez Fixa - fixed.acidity

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.60    7.10    7.90    8.32    9.20   15.90
## [1] "Correlação da Acidez Fixa com a Qualidade:  0.124051649113224"

A variável de Acidez Fixa tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de 0,12 e é considerada baixa Portanto, não será avaliada.


Acidez Volátil - volatile.acidity

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3900  0.5200  0.5278  0.6400  1.5800
## [1] "Correlação da Acidez Volátil com a Qualidade:  -0.390557780264007"

A variável de Acidez Volátil tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de -0,39 e é considerada moderada. Portanto, será avaliada.


Ácido Cítrico - citric.acid

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000
## [1] "Correlação de Ácido Cítrico com a Qualidade:  0.226372514318041"

A variável de Ácido Cítrico tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de 0,23 e é considerada moderada. Portanto, será avaliada.


Açúcar Residual - residual.sugar

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.539   2.600  15.500
## [1] "Correlação de Açúcar Residual com a Qualidade:  0.0137316373400663"

A variável de Açúcar Residual tem distribuição log-normal, apesar de apresentar long tail e exceções.

Sua correlação com a variável dependente Qualidade é de 0,01 e é considerada fraca. Portanto, não será avaliada.


Cloretos - chlorides

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
## [1] "Correlação de Cloretos com a Qualidade:  -0.128906559930053"

A variável de Cloretos tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de -0,13 e é considerada fraca. Portanto, não será avaliada.


Dióxido de Enxofre Livres - free.sulfur.dioxide

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    7.00   14.00   15.87   21.00   72.00
## [1] "Correlação de Dióxido de Enxofre Livres com a Qualidade:  -0.0506560572442764"

A variável de Dióxido de Enxofre Livres tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de -0,05 e é considerada fraca. Portanto, não será avaliada.


Dióxido de Enxofre Total - total.sulfur.dioxide

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   22.00   38.00   46.47   62.00  289.00
## [1] "Correlação de Dióxido de Enxofre Total com a Qualidade:  -0.185100288926538"

A variável de Dióxido de Enxofre Total tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de -0,18 e é considerada fraca. Portanto, não será avaliada.


Densidade - density

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9956  0.9968  0.9967  0.9978  1.0037
## [1] "Correlação de Densidade com a Qualidade:  -0.174919227783349"

A variável de Densidade tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de -0,17 e é considerada fraca. Portanto, não será avaliada.


Potencial Hidrogeniônico - pH

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.210   3.310   3.311   3.400   4.010
## [1] "Correlação de pH com a Qualidade:  -0.0577313912053821"

A variável de Potencial Hidrogeniônico tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de -0,06 e é considerada desprezível. Portanto, não será avaliada.


Sulfatos - sulphates

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.5500  0.6200  0.6581  0.7300  2.0000
## [1] "Correlação de Sulfatos com a Qualidade:  0.251397079069261"

A variável de Sulfatos tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de 0.25 e é considerada moderada. Portanto, será avaliada.


Álcool - alcohol

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90
## [1] "Correlação de Álcool com a Qualidade:  0.476166324001136"

A variável de Álcool tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de 0.48 e é considerada moderada. Portanto, será avaliada.

Análise Univariada

Qual é a estrutura do conjunto de dados?

## 'data.frame':    1599 obs. of  14 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##  $ category            : Factor w/ 3 levels "ruim","bom","excelente": 2 2 2 2 2 2 2 2 2 2 ...

Adicional ao que é exibido na função str(), de acordo com o arquivo wineQualytiInfo.txt obtido do repositório da Udacity no endereço https://s3.amazonaws.com/udacity-hosted-downloads/ud651/wineQualityInfo.txt, o conjunto de dados tem a seguinte estrutura de variáveis:

Input variables (based on physicochemical tests):

  1. fixed acidity (tartaric acid - g / dm^3)
  2. volatile acidity (acetic acid - g / dm^3)
  3. citric acid (g / dm^3)
  4. residual sugar (g / dm^3)
  5. chlorides (sodium chloride - g / dm^3
  6. free sulfur dioxide (mg / dm^3)
  7. total sulfur dioxide (mg / dm^3)
  8. density (g / cm^3)
  9. pH
  10. sulphates (potassium sulphate - g / dm3)
  11. alcohol (% by volume)

Output variable (based on sensory data):

  1. quality (score between 0 and 10)

Quais são os principais atributos de interesse deste conjunto de dados?

QUALITY é o atributo principal, pois ele define a qualidade do vinho baseado nos outros fatores.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Correlação das variáveis independentes da variável dependente quality

variável correlação
fixed.acidity 0.12
volatile.acidity -0.39
citric.acid 0.23
residual.sugar 0.01
chlorides -0.13
free.sulfur.dioxide -0.05
total.sulfulr.dioxide -0.19
density -0.17
pH -0.06
sulphates 0.25
alcohol 0.48

De acordo com a tabela acima, não temos nenhuma variável com uma correlação forte.

Com base nos valores de correlação obtidos, os atributos que podem auxiliar a investigação são:

  1. ALCOHOL
  2. VOLATILE.ACIDITY
  3. SULPHATES
  4. CITRIC.ACID

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Foi criada a variável category, conforme descrito acima para classificar os vinhos em ruins, bons e excelentes.

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Foram encontradas duas variáveis com distribuição normal:

  • quality
  • density
  • pH

As variáveis a seguir têm distribuição log-normal (apesar de long tail)

  • residual.sugar
  • chlorides
  • sulphates

As variáveis restantes têm distribuição próximas a log-normal

  • fixed.acidity
  • volatile.acidity
  • citric.acid
  • free.sulfur.dioxide
  • total.sulfur.dioxide
  • alcohol

Não houve necessidade de ajustes ou formatação dos dados, por serem todos numéricos.

Seção de Gráficos Bivariados

Análise das quatro variáveis com maior correlação com a variável quality.

Influência dos componentes na qualidade dos vinhos

Álcool - melhores qualidades de vinhos observadas quando o teor alcoólico é mais alto, acima de 10% do volume.

Entretanto, há uma inversão com vinhos categorizados como bons, porém com qualidade 5. Vinhos com qualidade inferior (3 e 4) possuem teores alcoólicos acima.


Acidez Volátil - a quantidade apresentada desse componente é inversamente proporcional à qualidade. Vinhos com presença de ácido acético abaixo de 0.6 g/dm^3 são de melhor qualidade.


Sulfatos - índices maiores de presença de sulfato de potássio melhoram a qualidade do vinho. Valores acima de 0.6 g/dm^3 já estão presentes nas categorias dos vinhos bons.


Ácido Cítrico - semelhante ao sulfato de potássio, maiores índices dessa substância são encontradas em vinhos bons, em geral, valores acima de 0.25 g/dm^3.


Analisando outras correlações com os itens tidos como não de interesse

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

Conforme observado na seção Influência dos componentes na qualidade dos vinhos, melhores vinhos têm:

  • Mais altos teores alcoólicos
  • Menores índices de acidez volátil
  • Maiores índices de sulfatos
  • Maiores índices de ácido cítrico

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Dos atributos que não foram selecionados para a análise, foram encontradas duas correlações fortes:

  • pH vs fixed.acidity -> correlação = -0.683
  • density vs pH -> correlação = 0.668

Os atributos pH e fixed.acidity não parecem muito relevantes, porque os dois se relacionam com alcalinidade dos vinhos. Não há vinho tendendo a ser ácido. Todos são alcoólicos. O próprio fator pH tem correlação muito fraca com a qualidade, da ordem de -0.06.

Qual foi o relacionamento mais forte encontrado?

O maior correlacionamento encontrado entre os itens de interesse foi:

  • alcohol vs quality = 0.48

O maior correlacionamento encontrado entre os itens de não interesse foi:

  • pH vs fixed.acidity = 0.68

Seção de Gráficos Multivariados

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

  • O percentual alcoólico é o índice que mais contribui com a qualidade de um vinho. Em geral, bons vinhos tem um teor alcoólico entre 9.5 e 14.
  • Sulfatos e ácidos cítricos também contribuem com a qualidade do vinho quando seus valores são mais altos.
  • A acidez volátil é prejudicial à qualidade do vinho, pois quanto menores os índices encontrados desse elemento, maior a qualidade do vinho.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Calculando-se a correlação entre os fatores de interesse, também observou-se:

  • Três correlações significativas para vinhos de boa qualidade
    • Acidez Volátil vs Sulfatos = -0.261
      • Acidez Volátil entre 0.3 e 0.8
      • Sulfatos entre 0.5 e 0.75
    • Acidez Volátil vs Ácidos Cítricos = -0.552
      • Acidez Volátil entre 0.3 e 0.8
      • Ácidos Cítricos entre 0.0 e 0.5
    • Sulfatos vs Ácidos Cítricos = 0.313
      • Sulfatos entre 0.5 e 0.73
      • Ácidos Cítricos entre 0 e 0.5

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.


Gráficos Finais e Sumário

Primeiro Gráfico

Descrição do Primeiro Gráfico

Mostrando a variação do fator mais importante, o teor alcoólico é o elemento que mais contribui na qualidade do vinho.

Segundo Gráfico

Descrição do Segundo Gráfico

Bons vinhos também dependem dos índices de Acidez Volátil e Ácido Cítrico em sua composição para serem bem classificados.

O gráfico acima mostra a distribuição desses compontentes nas categorias ruim, bom e excelente, às quais foram classificados os vinhos do dataset.

Terceiro Gráfico

Descrição do Terceiro Gráfico

Uma visão um pouco mais detalhada que a do segundo gráfico, aqui vemos a distribuição da relação entre Acidez Volátil e Ácido Cítrico divididos na escala de qualidade dos vinhos.

Reflexão

A análise do dataset de Qualidade de Vinhos Tintos começou com a avaliação das variáveis que foram plotadas em histogramas.

Uma vez com a informação visual dos elementos, segui para a identificação da variável dependente, que foi facilmente anotada pela quality, que é uma nota dada para o vinho.

Com a variável dependente já identificada, calculei as correlações entre as outras variáveis e selecionei as de correlação mais forte.

Uma primeira dificuldade foi escolher as variáveis para fazer os estudos, visto que nenhuma delas apresenta correlação forte com a qualidade. Sendo assim, escolhi as melhores, sendo todas de correlação mediana.

A partir desse ponto, foram plotados gráficos para identificar como essas variáveis podem descrever a qualidade de um vinho.

Além dos estudos de correlação das variáveis com a qualidade, também foram analisadas as correlações entre as mais fortes, obtendo a linha de tendência.

Por fim, com todas as análises em mãos, foi feito um resumo sobre a relação entre os fatores observados e a qualidade de vinhos tintos, apresentado em três gráficos.